SWE-bench Verified 大模型得分排行榜
数据来源:DataLearnerAI
SWE-bench Verified详细排名数据表格
排名
模型
得分
发布时间
参数(亿)
#3

Claude Opus 4.1
thinking + 使用工具
#4
#7
#10

OpenAI o4 - mini
thinking
#11

Gemini-2.5-Pro
thinking
#14
#17
#18

GPT OSS 120B
thinking
#20

DeepSeek-R1-0528
thinking
#21

GLM-4.5-Air
thinking
#22
#23
#29
#33

OpenAI o3-mini
thinking
#34
#36
#39
#42